Model Selection

Synthetic data generalization

# Synthetic data generalization

Sapiens Pose 0.6b

Sapiens is a family of vision Transformer models pre-trained on 300 million high-resolution human images, focusing on human-centric vision tasks.

Pose Estimation English

Sapiens Depth 0.3b Bfloat16

Sapiens is a series of vision transformer models pre-trained on 300 million human images at 1024x1024 resolution, focusing on human-centric vision tasks.

3D Vision English

Sapiens Seg 0.6b Bfloat16

Sapiens is a family of Vision Transformer models pre-trained on 300 million 1024x1024 resolution human images, focusing on human-centric vision tasks.

Image Segmentation English

Sapiens Pose 1b Bfloat16

Sapiens is a vision transformer series model pre-trained on 300 million 1024x1024 resolution human images, focusing on human-centric vision tasks.

Pose Estimation English

Sapiens Pretrain 1b Bfloat16

Sapiens is a vision Transformer model pre-trained on 300 million 1024×1024 resolution human images, supporting high-resolution inference and real-world scenario generalization.

Image Classification English

Sapiens Pretrain 2b Bfloat16

Sapiens is a family of Vision Transformer models pre-trained on 300 million 1024x1024 resolution human images, supporting high-resolution inference and real-world scenario generalization.

Image Classification English

Sapiens Depth 2b

Sapiens is a family of vision Transformer models pre-trained on 300 million 1024×1024 resolution human images, focusing on human-centric vision tasks.

3D Vision English

Sapiens Seg 0.3b

Sapiens is a family of Vision Transformer models pre-trained on 300 million 1024×1024 resolution human images, focusing on human-centric vision tasks.

Image Segmentation English

Sapiens Pose 1b

Pose-Sapiens-1B is a high-resolution human pose estimation model based on the Vision Transformer architecture, pre-trained on 300 million 1024x1024 resolution human images, supporting 308 keypoint detections (body, face, hands, and feet).

Pose Estimation English

Sapiens Pretrain 0.3b

Sapiens is a vision Transformer model pretrained on 300 million high-resolution human images, specifically designed for human-centric vision tasks.

Image Classification English

Sapiens Pretrain 0.6b

Sapiens is a Vision Transformer model pre-trained on 300 million 1024×1024 resolution human images, excelling in human-centric vision tasks.

Image Classification English

Sapiens Pretrain 1b

Sapiens is a vision Transformer model pretrained on 300 million high-resolution human images, focusing on human-centric vision tasks.

Face-related English

Sapiens Pretrain 2b

Sapiens-2B is a Vision Transformer model pre-trained on 300 million high-resolution human images, specifically designed for human-centric vision tasks with exceptional generalization capabilities.

Face-related English

Sapiens Depth 0.6b Torchscript

Sapiens is a vision transformer series model pre-trained on 300 million 1024 x 1024 resolution human images, focusing on human-centric vision tasks.

3D Vision English

Sapiens Seg 1b Torchscript

Sapiens is a series of vision transformers pre-trained on 300 million 1024×1024 resolution human images, specifically designed for human-centric vision tasks with exceptional generalization capabilities.

Image Segmentation English

Sapiens Pose 1b Torchscript

Sapiens is a vision Transformer model pre-trained on 300 million 1024x1024 resolution human images, specifically designed for high-precision pose estimation tasks.

Pose Estimation English

Sapiens Pretrain 1b Torchscript

Sapiens is a family of vision Transformers pre-trained on 300 million 1024x1024 resolution human images, specifically designed for human-centric vision tasks.

Image Classification English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase